문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 구글 번역 (문단 편집) == 작동 원리 == 컴퓨터 번역 프로그램을 만든다면 [[언어학]]자들이 대거 동원될 것 같지만, [[Google]]에 따르면 '''언어학자는 해당 팀에 단 한 명도 없다고 한다.''' 국제기구나 기업 등에서 동일한 문서를 A 언어, B 언어, C 언어 등의 여러 언어로 만들어 놓은 것을 검색엔진이 검색하여, 많은 결과를 바탕으로 번역한다고 한다. 이러한 번역 원리를 말뭉치[* 텍스트 자료를 데이터베이스화한 시스템([[http://corpus.byu.edu/|예시]])] 기반 기계번역(corpus-based machine translation; CBMT)라고 일컬으며, 두 언어 간의 병렬 말뭉치(bilingual parallel corpus)를 기반으로 비교분석하여 번역 결과물을 출력하는 과정을 거친다.[* 따라서 원문의 문법 요소에 대한 분석은 고려하지 않는다.] 말뭉치를 만드는 원리에 있어서는 통계적 기계번역(statistical machine translation; SMT)에 해당한다. 즉, 단어 대 단어, 구절 대 구절의 사용 빈도를 나타내는 모델을 만들어서 어떤 단어 및 구절의 번역으로 가장 많이 나타나는 표현이 확률적으로 정확하다는 것이다. 또한 그렇게 단어 및 구절 층위에서 확률적으로 정확한 표현이 선택되면 그것이 배열되는 순서도 마찬가지로 가장 많이 나타나는 순서가 확률적으로 정확하다고 판단하고 번역물을 출력한다. 그렇기 때문에 팀에 언어학자가 하나도 없어도 된다. 2016년 이전까지 적용되던 이 원리에 따르면, [[인터넷]]에 많은 정보가 번역되어 있는 언어가 가장 번역 품질이 높게 된다.[* 검색결과(표본)가 많아야 통계적으로 정확성이 높아진다.] [[한국어]]↔[[영어]] 간의 직접 번역보다 한국어↔[[일본어]]↔영어 [[중역]]이 더 정확한 경우가 많았다. 한국어와 영어간 번역 사례보단 일본어와 영어 간의 번역 사례가 훨씬 많고, 한국어와 일본어간의 번역 사례도 엄청나게 많다는 점 때문이었다. 당시 Google 번역은 알아서 중역을 지원하진 않기 때문에 사용자가 알아서 중역을 해야 했다.([[http://www.pgr21.com/pb/pb.php?id=humor&no=149346|실제 사례]]) 이에 중역을 이용한 웹서비스도 있었다.([[http://better-translator.com/?locale=ko|더 나은 번역기]]) [[한국어]]와 번역 사례가 한국어↔[[영어]]보다 적어서 중역을 거치는 외국어, 특히 그 중에서도 [[인도유럽어족]] 언어의 경우 영어를 할 수 있다면 영어로 읽는 편이 가장 의미 전달이 정확했다. 2012년에는 아예 영어를 할 수 없다면 영어를 통해서 중역이 필요하라는 조언이 구글에서 나올 정도였다.([[http://biz.chosun.com/site/data/html_dir/2012/11/02/2012110201300.html|Google 기계번역 담당자를 인터뷰한 신문기사]]) 그러나 2016년 11월부터 [[영어]]↔[[한국어]] 간의 딥러닝 기반 번역 지원으로 위의 팁은 사실상 쓸모가 없게 됐다. 현재 한국어에서 영어로 번역, 영어에서 한국어로 번역 모두 중역보다는 직역이 훨씬 자연스럽고 정확도가 높다. '''모든 언어에서 중역보다 직역이 정확도가 높다.''' 신경망 번역은 대량의 데이터를 필요로 하는데 이 경우 사람마다 번역하는 방식도 다르고 품질도 제각각이라 좋은 품질을 내려면 구글이 데이터를 균일하게 잘 정제해야 할 것이다. 신경망 번역 이후 2019년 기준 영어와의 번역의 정확도가 높은 언어를 꼽자면 스페인어(90% 이상)> 타갈로그어, 중국어, '''한국어'''(80~90%)> 베트남어 > 페르시아어(67%) > 아르메니아어(55%)다. 번역 데이터가 단순히 많으면 정확도가 향상됨을 알 수 있다. 같은 인도유럽어족인 페르시아어, 아르메니아어보다 한국어와의 번역의 정확도가 훨씬 높다. [[https://www.theverge.com/2021/3/9/22319225/google-translate-medical-instructions-unreliable|#]] 구글 번역은 어떤 언어를 번역할 때 여러 개의 표준이 있는 언어라면 그 언어들을 통틀어서 가장 많이 쓰이는 형태를 제공한다. '색깔'의 경우 영어로 번역할 때 추천되는 어구로 미국식인 'diversity of colors'와 영국식인 'diversity of colours'를 모두 제공하는데, 통번역에 있어서는 '미국식 영어'와 '영국식 영어'를 하나로 보는 것으로 파악된다. 여기에 그 언어 전체에서 많이 쓰이는 형태와 유사한 어구라면 방언과 같은 다소 특이한 말투도 신경망 번역으로 번역이 가능하고, 심지어 북한의 표준어인 [[문화어]]를 넣고 번역시켜도 다른 언어로 번역이 가능하다. 만약 영어를 북한에서만 쓰일 수 있는 상황을 묘사하여 '북한스럽게' 쓴다면 [[https://translate.google.com/?hl=ko&sl=en&tl=ko&text=The%20report%20stated%20that%20the%20Party%20Central%20Committee%20had%20decided%20to%20develop%20a%20more%20powerful%20nuclear%20warhead%20and%20a%20global%20strike%20rocket%20with%20improved%20warhead%20control%20capability%20and%20brilliantly%20carried%20out%20this%20historic%20task%20based%20on%20the%20patriotic%20loyalty%20of%20defense%20scientists%2C%20and%20was%20held%20at%20the%20parade%20ground%20to%20celebrate%20the%2075th%20anniversary%20of%20the%20founding%20of%20the%20Party.%5C&op=translate|'력사적 과업']] 같은 어구가 등장한다.저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기